#!/bin/bash
#0、先将问题变成以下形式 id \t title \t content的格式
#1、将问题分隔成title和content
#2、分别对title和content进行分词
#3、统计词频
if [ $# -lt 1 ] 
then
    echo "Usage: ./splitQuestions srcFile";
    exit 1;
else
    srcFile=$1
fi
#过滤^M
echo "过滤^M......"
cat $srcFile | tr -d "\015" > $srcFile".tmp"
mv $srcFile".tmp"  $srcFile
#make tilte content file
echo "将输入文件分解成title和content"
awk 'BEGIN{FS="\t"; OFS="\t"}{print $1,$2}' $srcFile > $srcFile".title"
awk 'BEGIN{FS="\t"; OFS="\t"}{print $1,$3}' $srcFile > $srcFile".content"
splitWord_path=../splitWord
#对title分词
cd $splitWord_path
echo "对title分词"
java -cp ./ Segment $srcFile".title"  $srcFile".title.split"
#对content分词
echo "对content分词"
java -cp ./ Segment $srcFile".content"  $srcFile".content.split"
cd -
echo "恭喜您！分词完毕！ enjoy it!"
